Лента новостей

13:46
В убийстве двух украинцев в ТЦ Германии обвиняют россиянина
13:45
Из Тисы выловили тела ещё двух украинских мужчин
13:03
WSJ: Германия мешает США присвоить российские замороженные активы
12:28
TV3: в Латвии не нашли замены российским лекарствам
12:26
Стало известно о времени трансляции инаугурации Путина 7 мая
11:59
Евродепутат допустила снижение поддержки Украины после выборов в Европарламент
11:58
Студента МГУ из Одессы арестовали в Москве за сбор денег для ВСУ
11:23
За ночь над четырьмя регионами РФ были сбиты 17 украинских БПЛА
11:14
Володин: Финляндия наказала своих граждан закрытием КПП на границе с Россией
10:47
Следком РФ в ДНР расследует военные преступления представителей киевского режима и уголовные дела, возбужденные в отношении местных жителей
10:30
Пока Запад не вышел из трансгендерной комы…
09:31
Путин привез немецкую технику в Москву
09:29
Верховный суд Украины открыл производство против Рады о неназначении выборов президента
05:29
Эрик Ревель: военная экономика выгодна России
04:54
Мангалы на русских танках. Неожиданное защитное приспособление работает
04:33
Первая из первых: винтовка человека по имени Пекарь
04:25
Тайна гибели самого молодого комфронта генерала Черняховского
02:02
Санкциями против российских ресурсов Запад загоняет себя в тупик
01:30
Украинский винегрет с «тухесом»
00:58
Обзор Ryzen 7 8700G: на что способна интегрированная графика для игр в 1080p
00:38
Специальная военная операция ВС РФ и события на Украине 27 апреля, вечер
00:17
Об очередном военном бюджете США
22:08
Надувной Зеленский надул свой народ
20:14
Опасность евродеградации
20:08
Российская армия освободила Бердычи
19:43
ВСУ ведут обстрелы республик Донбасса, Белгородской и Херсонской области. Обзор ситуации в прифронтовых регионах России на вечер 27 апреля
19:32
Российские войска освободили Керамик на Авдеевском участке фронта СВО
19:14
Welt представила изложение Стамбульского проекта мирного договора
19:06
Зеленского обвинили во вранье и воровстве миллиардов из помощи США
17:57
Главком ВСУ доложил западным кураторам о возможной эскалации на фронте
17:56
Interia: американские планирующие бомбы GLSDB оказались бесполезными
17:55
Западное вооружение не доходит до ВСУ, потому что российская армия уничтожает его ещё до фронта
17:54
Сводка Минобороны России о ходе проведения спецоперации в период с 20 по 27 апреля
17:46
Премьер Польши Туск заявил о якобы упавшей в 15 километрах от границы ракете
17:10
Медведев предложил асимметричный ответ России на конфискацию активов в США
16:43
The New York Times: тотальная мобилизация на Украине происходит по требованию США
16:42
Журналист из Финляндии: Украина — фашистское государство, которое убивает мирное население
16:34
Погранкомитет: Латвия и Литва вербуют граждан России и Белоруссии на границе
16:33
Welt: русская армия немедленно уничтожает поставленное Украине западное вооружение
15:59
Что означает размещение Россией ракет большой дальности для Скандинавии?
15:57
NYT: США оказывали давление на Украину из-за проблем с мобилизацией
15:36
Китай созывает «палестинский саммит» с ХАМАС и ФАТХ
15:28
Курченко обворовал клиентов криптобиржи Beribit, как и промышленность Донбасса?
15:27
Песков опроверг издание Die Welt, которое нивелирует вину Великобритании в эскалации конфликта на Украине
14:52
Власти Южной Кореи подумывают восстановить нормальные отношения с Россией
Все новости

Архив публикаций



Мировое обозрение»Технологии»Голоса: как создают голосовых помощников и как из машины делают личность

Голоса: как создают голосовых помощников и как из машины делают личность



В 2013 году на экраны вышел фильм Спайка Джонса «Она» о романе одинокого писателя с операционной системой. Несмотря на кажущуюся абсурдность, это оказалась удивительно трогательная и пронзительная история любви. В оригинальном фильме операционную систему озвучивала Скарлетт Йоханссон, а в российской версии она говорила голосом Татьяны Шитовой.

Голоса: как создают голосовых помощников и как из машины делают личность


Через пять лет у меня дома появилась «Яндекс.Станция» – и заговорила со мной тем же голосом. Так фантастика стала реальностью. А еще через день Алиса, которая жила в «Станции», ночью вмешалась в наш интимный разговор с женой – кстати, очень в тему. Жена после этого потребовала убрать Алису из спальни и в целом невзлюбила электронных помощников с женскими голосами. 

На днях «Сбер» представил сразу три новых голосовых ассистента – Сбера, Джой и Афину, причем две последние, судя по голосам, тоже томные красотки. На подходе Марвин из МТС. Оставив в стороне сложнейшие технологии распознавания и синтеза речи, мы расспросили создателей голосовых помощников, как из машины делают личность.

Личности

«Виртуальный ассистент – традиционный набор каких-то умений, – рассказывает Денис Филиппов, директор по технологиям и разработке SberDevices, компании экосистемы «Сбера», один из создателей Джой, Афины и Сбера. – Мы спрашиваем – виртуальный помощник отвечает, например, какая сегодня погода, курс доллара, или ставит музыку, то есть выполняет определенные задачи, «полезности»».

Но голосовой помощник разговаривает, симулируя человеческие эмоции, вызывая у пользователя некий образ и связывая его с продуктом. Такую способность называют эмпатией, если это слово можно применить к машине. И с ней непросто: у виртуальных ассистентов многомиллионная аудитория, и всем надо угодить. Какой голос лучше – мужской или женский? Томный или деловой? Мою жену, например, раздражают ассистенты с соблазнительными женскими голосами, а мне не очень нравится общаться с брутальными мужчинами-помощниками.





Разработчики идут разными путями. «Сбер», например, запустил сразу трех персонажей обоих полов, «Яндекс» – только Алису, а МТС – Марвина. Но при этом Алиса умеет распознавать голоса и, если понимает, что с ней говорит ребенок, включает специальный детский режим. В этом режиме у голосового ассистента меняется манера общения: Алиса начинает обращаться на «ты» и использовать другой словарный запас. Потому что для ребенка она прежде всего друг, а если разговаривать на «вы», беседа получится более отрешенной и холодной.









Создатель Марвина Аркадий Сандлер сформулировал требование к ассистенту так: «Пусть на этот раз помощник будет не роботом, не женского пола и, возможно, даже не человеком». «Он очаровательный, остроумный, иногда трогательный, иногда мудрый, – делится спичрайтер Марвина, киносценарист Ольга Никифорова. – Инопланетянин, философ из расы пухнашей, умеющий прыгать между мирами. Космический бродяга, чей свежий, часто оригинальный взгляд на многие земные процессы радует, веселит или изумляет пользователя».






У каждого разработчика изначально есть своеобразная «библия персонажа» – многостраничный документ, где подробно описано, кто он такой, что ему нравится, а что нет, чего он боится, как относится к разным вещам. Там же дается свод жизненных правил ассистента – например, никогда не материться и не причинять вред человеку.




Школа


Очень важно, на каких именно данных обучаются виртуальные помощники. «Если предложить им, условно, одну только «Википедию», получится очень скучно и сухо, словно говоришь с толковым словарем, – рассказывает руководитель продукта «Алиса» Андрей Законов. – Если обучать на «ВКонтакте», будет излишне молодежно и сленгово». Точно так, как в виноделии применяется купаж – смешивание в определенной пропорции разных видов алкоголя, в обучении голосовых ассистентов важно сочетание источников информации. Например, персонаж Алисы любит книги, ей изначально «скармливали» много русской литературы, поэтому в ее репликах порой проскакивают цитаты, что-то окололитературное. «Периодически нас спрашивают: что это за странная фраза? Откуда она тут появилась? – говорит Андрей. – А это из стихотворения Цветаевой или Бродского, например». Мужской персонаж Сбер – знаток современных технологий. Афина – интеллектуал, с которой интересно поговорить на разные темы. Джой больше про развлечения, она знает все о модных молодежных трендах. Ну и конечно, они прекрасно разбираются в финансах и музыке: большая часть запросов как раз из этой сферы. Сберовские персонажи и Алиса подключаются к телевизору и могут показывать фильмы, а потому специально натренированы на эту тематику – с ними интересно обсудить новинки проката, актеров и просто поболтать о кино. А Марвина можно попросить сказать тост – он обязательно выдаст что-нибудь небанальное, смешное, трогательное или поделится мудростью жителей другой планеты. И даже напишет стихи в только ему присущей манере.









Человек или машина


Голосовые помощники общаются двумя способами. Либо просто выдают информацию, как своеобразная голосовая «Википедия», либо работают в так называемом режиме болталки, который и делает их «живыми», – это связный разговор, самая сложная технология. И здесь тоже есть два способа.


У каждого персонажа имеется собственный спичрайтер – группа редакторов, которые пишут по 7–10 фраз-ответов на наиболее распространенные вопросы, чтобы пользователь, задавая один и тот же вопрос, слышал разные реплики. Но если заиграться в ручное написание, то через какое-то время неизбежно возникнет проблема масштабирования: придется нанимать целую армию редакторов, потому что пользователи вообще-то активно интересуются всякими разными темами. И здесь появляется комбинация. «Есть вопросы, которые особенно важны для персонажа. Например, для Джой это музыка, – говорит Денис Филиппов. – Поэтому редакторы должны очень тщательно продумать, какая именно музыка ей нравится. А дальше в игру вступает нейросеть». Причем нейросеть у каждого персонажа разная.







Нейросеть обладает сотнями миллионов потенциальных ответов. Допустим, пользователь спросил: «Чем ты сейчас занимаешься?» Нейросеть полезла в свою базу, поискала, нашла несколько десятков релевантных вариантов, переранжировала в зависимости от контекста пользователя, выбрала один и выдала. Причем ответы сильно зависят от источников наполнения. В одном эксперименте SberDevices нейросеть наполнили контентом из «Твиттера», предварительно вычистив оттуда ненормативную лексику. С точки зрения русского языка получилось все нормально и весьма живо, но сами по себе фразы выходили достаточно оскорбительными.




Самым перспективным сейчас считается генеративный подход, основанный на алгоритмах обработки естественной модели языка. Очередная версия гигантской языковой модели GPT-3 уже сегодня сама пишет эссе, статьи и даже стихи. Такие системы обучаются на огромном количестве разнообразного контента – от художественной литературы до текстов из интернета. А затем система берет реплику пользователя, изучает контекст и пытается продолжить ее. Пока получается просто забавно. Но ни у кого нет сомнений, что в ближайшем будущем новые нейросети типа GPT-3 научатся вести связный диалог на заданные темы – о музыке, кино, литературе или личных отношениях.








Голоса


«Я голосовой помощник, у меня нет тела, только голос», – говорит Афина. Выбор правильного голоса невероятно сложная задача. Алисе повезло: голос для нее, можно сказать, отбирал весь Голливуд; в итоге ассистент говорит русским голосом Скарлетт Йоханссон – Татьяны Шитовой. Мужской голос Сберу подарил Даниил Щебланов, озвучивавший персонажей Райана Гослинга (большинство женщин этот выбор одобряют). За Джей стоит Татьяна Ермилова – голос Лары Крофт, а за Афиной – Анастасия Чернобровина, известная телеведущая, обладающая низким бархатным тембром.


Со стороны кажется, работа вполне обычная: надиктовал в студии кучу разных текстов – новости, художественную литературу, научпоп, нейросеть обучилась – и готово. На самом деле это очень трудоемкий процесс, который не прекращается никогда.









Денис Филиппов, который занимается этой темой более десяти лет, вспоминает: «Как-то предложили актрисе фонетически богатый текст, она читает – и вдруг мы понимаем, что все идет не так. В создании голосов кроме фонетики важна эмоция. Машина должна уловить в голосе эмоцию и потом использовать ее в своих репликах. А актеры, которые читают, максимально сосредоточены на тексте. В итоге получается даже не нейтральный новостной тон, а такой, будто человек сильно напрягся и пытается что-то сказать». Проблему решили, дав актерам «библию персонажа», – они вжились в роль, появились эмоции и игра. Причем для записи нужны не только фразы, но и разные междометия, типа «ха-ха», «ммм», «да-да», «ага», смех, вздохи – они заметно оживляют речь машины.





Голоса пишут месяцами, несколько раз в неделю по два часа, в строго определенное время. «У меня эфиры поздние, мы же на Дальний Восток вещаем. Вначале писались после них, ночами, – рассказывает Анастасия Чернобровина. – И оказалось, что между отдохнувшим дневным и уставшим ночным голосом огромная разница. Пришлось ночные записи отменить». Если человек приболел, у него насморк, запись тоже откладывается: сразу возникает неправильная интонация, другой тембр – и вся работа в корзину.






«Невозможно просто прочитать все слова и потом склеивать из них фразы, – говорит Андрей Законов. – Нужны эмоциональные ударения, вопросительные интонации, печаль, радость. Как правило, мы берем что-то из русской литературы, но смотрим, чтобы там были и правильные интонации, и правильные фонетические конструкции».




Юмор


Нормальное общение без иронии и чувства юмора невозможно. Человек без них – эмоциональный инвалид. А как научить шутить машину? «Юмор – это, если вдуматься, не свойство конкретной фразы, – улыбается Андрей Законов. – Смешно почти всегда становится в контексте предыдущего разговора. Более того, самые классные шутки дополнительно подразумевают контекст каких-нибудь событий прошлой недели, а то и прошлого месяца. Ответ выглядит остроумным, только когда он в диалоге». Изначально шутки прописывались спичрайтерами в фиксированных репликах. Но сейчас, считает Андрей, надо не пытаться генерировать смешные фразы или вручную писать шутки, а развивать контекст. И чем шире будет контекст, тем выше вероятность того, что в итоге получится смешной диалог.








Эмпатия


Современные технологии позволяют очень хорошо считывать настроение человека; существуют даже системы, которые ставят психиатрические диагнозы. Только у одной Алисы около 45 млн собеседников в месяц – гигантская база для обучения. Она много знает о каждом пользователе – о его привычках, пристрастиях, вкусах. И если вначале для обучения надо было ставить условные лайки и дизлайки, то сейчас ассистент считывает реакцию по ответам. Если человек в ответ рассмеялся, сказал: «Спасибо», «Классно!», то Алиса понимает, что собеседник доволен, негатива нет и можно продолжать диалог в том же направлении. Теоретически Алиса способна даже флиртовать – и при опыте флирта с миллионами мужчин превзойти главную героиню фильма «Она». Может, но пока не будет.



В первоначальном варианте голосовой помощник был более игривым, а сейчас словно сел на антидепрессанты. «В данный момент Алиса просто позитивная, – возражает Андрей Законов. – Мы сами выбрали такое настроение персонажа».


«Для каждого ассистента была сделана разная комбинация настройки нейросетей, – продолжает Денис Филиппов. – Где-то нейросеть выкручена в одну сторону, где-то – в другую. Мы хотим в эту историю поиграть. Главное, не загнать наших персонажей в какие-то уж совсем жесткие рамки». Поэтому одни виртуальные помощники более игривые, а другие – более чопорные. Но заводить с вами роман ни один ассистент не будет, хотя может. Конечно, если пользователь влюбится в персонажа, отказаться от такого устройства он сможет нескоро – тем более что ассистент с каждым разом будет понимать человека все лучше и лучше. Однако такое поведение машины чревато для компаний-разработчиков огромными репутационными рисками, а в голосовые помощники вкладываются гигантские деньги. Сегодня главная задача ассистентов не крутить романы, а продавать вам товары и услуги. А для этого нужны совсем другие настройки.


Александр Грек


Опубликовано: Мировое обозрение     Источник

Подпишись:





Напишите ваш комментарий к статье:

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.

Новости партнеров

Наверх